我们研究机器人如何自主学习需要联合导航和抓握的技能。虽然原则上的加固学习提供自动机器人技能学习,但在实践中,在现实世界中的加固学习是挑战性的,并且往往需要大量的仪器和监督。我们的宗旨是以无论没有人为干预的自主方式,设计用于学习导航和操纵的机器人强化学习系统,在没有人为干预的情况下,在现实的假设下实现持续学习。我们建议的系统relmm,可以在没有任何环境仪器的现实世界平台上不断学习,没有人为干预,而无需访问特权信息,例如地图,对象位置或环境的全局视图。我们的方法采用模块化策略与组件进行操纵和导航,其中操纵政策不确定性驱动导航控制器的探索,操作模块为导航提供奖励。我们在房间清理任务上评估我们的方法,机器人必须导航到并拾取散落在地板上的物品。在掌握课程训练阶段之后,relmm可以在自动真实培训的大约40小时内自动学习导航并完全抓住。
translated by 谷歌翻译